'''
A:详细页面的链接  https://sz.lianjia.com/zufang/105100742083.html
B:包含标题的页面的url地址   https://sz.lianjia.com/zufang/
'''
from bs4 import BeautifulSoup as BS
import os,xlwt,xlrd,traceback
from urllib import request
from xlrd import open_workbook
from xlutils.copy import copy


'''
:param    url_b : 包含标题的页面url链接
'''
def step1(url_b):
    '''
    获取A类数据
    '''
    html=request.urlopen(url_b).read()
    soup=BS(html,"lxml")
    # 保存A类链接的集合,避免重复,用set去重
    urls_=[]
    # 通过分析页面,抓取所有的class="pic-panel"的div元素下的a标签的href
    # 先通过find_all抓取所有符合条件的div
    divs_=soup.find_all("div",attrs={"class":"pic-panel"})
    # 遍历div,获取每个div下的a标签
    for div_ in divs_:
        # div_是单个div,现在获取这个div的子节点
        for a_ in div_.children:
            # 通过观察,每个div下只有一个元素,就是a标签.所以不考虑其他情况,直接获取a标签的href
            urls_.append(a_['href'])
    # 返回结果
    urls_ = list(set(urls_))
    return urls_

# 测试
# step1("https://sz.lianjia.com/zufang/")
    
    

